Visión general y paisaje de evolución arquitectónica

Pasamos del éxito fundamental de AlexNet a la era de redes profundas extremasRedes Neuronales Convolucionales (RNC). Este cambio requirió innovaciones arquitectónicas profundas para manejar una profundidad extrema manteniendo la estabilidad durante el entrenamiento. Analizaremos tres arquitecturas fundamentales—VGG, GoogLeNet (Inception), y ResNet—comprendiendo cómo cada una resolvió aspectos diferentes del problema de escalabilidad, sentando las bases para una interpretación rigurosa del modelo más adelante en esta lección.

1. Simplicidad estructural: VGG

VGG introdujo el paradigma de maximizar la profundidad utilizando tamaños de kernel extremadamente uniformes y pequeños (exclusivamente filtros convolucionales 3x3apilados). Aunque computacionalmente costoso, su uniformidad estructural demostró que la profundidad cruda, alcanzada mediante mínima variación arquitectónica, fue un factor principal del aumento de rendimiento, consolidando la importancia de campos receptivos pequeños.

2. Eficiencia computacional: GoogLeNet (Inception)

GoogLeNet contrarrestó el alto costo computacional de VGG priorizando la eficiencia y la extracción de características multiescala. La innovación central es el módulo Inception, que realiza convoluciones paralelas (1x1, 3x3, 5x5) y agrupamiento. Críticamente, utiliza convoluciones 1x1 como cuellos de botellapara reducir drásticamente el número de parámetros y la complejidad computacional antes de operaciones costosas.

Desafío clave de ingeniería

Aprendizaje residual: ResNet

ResNet resolvió el problema de degradación al introducir el mapeo de identidad (conexión salteada). Esta ruta alternativa no secuencial permite que la red aprenda una función residual $F(x)$ en lugar de un mapeo directo $H(x)$, asegurando efectivamente que añadir más capas solo puede mejorar o mantener el rendimiento, mejorando drásticamente la estabilidad de la optimización.

Diagram showing a ResNet skip connection architecture

Pregunta 1

¿Qué arquitectura destacó la uniformidad estructural usando principalmente filtros 3x3 para maximizar la profundidad?

AlexNet

VGG

GoogLeNet

ResNet

Pregunta 2

¿Para qué propósito fundamental se utiliza principalmente la convolución 1x1 en el módulo Inception?

Aumentar la resolución del mapa de características

Activación no lineal

Reducción de dimensionalidad (cuello de botella)

Atención espacial

Desafío crítico: Gradientes desvanecientes

Soluciones de ingeniería para la optimización

Explique cómo el mapeo de identidad de ResNet aborda fundamentalmente el problema de gradientes desvanecientes más allá de técnicas como la inicialización mejorada de pesos o la normalización por lotes.

Describa el mecanismo mediante el cual la conexión salteada estabiliza el flujo de gradientes durante la retropropagación.

Solución:
La conexión salteada introduce un término de identidad ($+x$) en la salida, creando un término aditivo en la ruta derivada ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Este término garantiza una ruta directa para que la señal de gradiente fluya hacia atrás, asegurando que los pesos superiores reciban una señal de gradiente no nula y útil, independientemente de lo pequeño que sean los gradientes a través de la función residual $F(x)$.